学习中的反馈

原文:Feedback in learning - supermemo.guru

这段文字选自《学校教育的问题》 作者:彼得·沃兹尼亚克(2017-2021)

概念网络中的反馈

相较于原子化陈述式学习(比如利用间隔重复来学习),概念网络的力量远比它强大。复杂的任务可能涉及过程式学习、模式提取、泛化、模式完成、遗忘等等。理想状态下的学习过程应该完全由学习内驱力控制,这样才能以最佳的方式获取最佳的反馈(见:学习内驱力的最优化)。实际上,这意味着所有优质的学习都是某种快乐的自由学习。在概念网络中强化学习的过程类似于训练神经网络,不同之处在于这个动态过程由网络的生物特性决定。

学习中的最优反馈是由学习内驱力提供的。

电视调频比喻

概念网络中的强化学习可以用电视调频来比喻:

比喻。为什么使用比喻?

概念网络中的强化学习类似于调整老式模拟信号电视机。第一张图片可能比较朦胧,充满混乱的颗粒,缺乏色彩且难以解码。但是,矫正的反馈可能有助于逐渐调谐到正确的频率,并获得清晰明了的画面。

正确的反馈会带来渐进的学习。学习内驱力控制下的反馈是最优且高效的(参见:学习内驱力的最优化)。相比之下,学校学习带来的强迫反馈可能会打乱整个学习过程,只能从头开始调整。学校对错误的零容忍对学习过程造成了很多干扰论老鼠比受过学校教育的人更优越)。

学会说话

学会说话是一个复杂学习任务的例子,它基于大量的概念化,为新工作重塑大脑。这个过程基于通过模式识别和完善、泛化等方式从环境中提取知识,并根据反馈提供方向性的强化。

在组织语言时,语义大脑试图将激活概念图这一过程转换成一串声音,这些声音将会在听者的大脑中完成类似概念图的重现。为了达成这个目的,大脑需要学会如何组织语言。这个过程就是一种强化学习,其中有关学习内驱力的过程其所承担的任务的难度系数提供了指导。听众如果成功理解,便会带来正反馈奖励;听众如果产生误解,便会带来轻微的负反馈惩罚。

如果孩子想拿一颗球,他可能会指着球,试着说话,再从外界得到反馈。对孩子来说,球本身可能就是强化反馈。拿到球的孩子会想「我掌握的知识是对的,我的目标已经完成了 」,这样的确认让他们觉得开心。如果发音发错了,比如把「ball」说成了「pa」,监督性的反馈可能会带来纠正。例如,成年人可能用过分强调声音模式特征的儿语来示范「ball」的正确发音。这样会带来显著的学习的乐趣,即「我实现了我的目标,也学会了以后该怎样更好地实现它」。而如果反馈者缺乏理解,纠正反馈可能体现为一种精神惩罚:「你说啥?」或「啥玩意?」。甚至比这更严重,例如,父母可能愤怒地回嘴:「你胡说八道个啥?你又想要啥?」,老师可能会斥责道:「我到底要教你几遍你才能明白?你这头懒猪!」最好的学习(以及乐趣)往往发生在学到有用的新事物时。最糟糕的学习则伴随着斥责,而这可能会抑制未来说话的尝试。学校教育的主要缺陷之一是缺乏反馈,或者只有惩罚性的反馈(在成绩不好,或者老师总是发火时)。当「pa」的发声收到「ball」的纠正反馈时,正确的模式会被提取,概念学习网络可能会在下一次尝试中发声「pall」或「ba」。使其发出更接近于「ball」的音。实际的效果将取决于(1)受影响的概念子网络中知识的稳定性,以及(2)由此产生的主动干扰

学会阅读

泛化过程可能会因为错误反馈、过度惩罚、干扰退步毒性记忆等而被中断。学习说话的最佳时机取决于自主学习发生的时间,并且需要一个安全的自然环境。同理,当一个人的学习进程是自我导向的、自定进度的,那么这就符合学习阅读的最佳时机。强制的外部反馈可能会导致教育性阅读障碍。对于早期阅读和提高识字率来说,教育界掀起的数场阅读大战会产生副作用(见:阅读战争结束)。实际上,只要理解过最优化反馈的原则,会很清楚地可以明白:阅读早教是有害的。类似地,「自然拼读法和整体语言法哪个更好?」这个问题可以通过学习内驱力自然解决,这使得它有可能在整个语言环境中找到语音序列化和模式识别之间的最佳平衡状态,来实现效益最大化。

学习语言

当一个学生在努力地去学会一门新语言时,即使造出错误的语句也应该值得表扬。相反地,老师可能会呵斥:「这是错的!」,从而抑制学生的进一步尝试。这就解释了为什么人们在国外生活时很容易学会语言,而在学校学习语言时往往会害怕说这种语言。

想象一个婴儿,指着它的母亲,说出了它人生的第一个单词:「妈」。在几乎所有的文化中,这一时刻都会被视作一个突破性的里程碑,人们为此欢呼庆祝。这个小孩会感受到一阵愉悦,从而开始寻求在言语产生中获取更多的奖励。如果这个孩子受到学校教育强制反馈规则的约束,他可能会听到:「不不不!那是错的。你应该说「MO-THER,重新说一遍!」。光凭直觉,我们都能知道这样的反馈是毫无意义的。

在学校里,如果学生没有主动要求(或没有同意),老师去纠正学生的语法错误,其实是一件有害的事,并且可能会损害到学生自信心。这可能会让学生和教师养成坏习惯,使他们在生活中习惯于选择保持沉默。例如,我认识许多成年的英语学习者,当我和他们在一起时,他们由于过于担心犯错而不敢说英语。我也不期望这样,但这正是由学校的胁迫性反馈导致的学校恶习

学校与 SuperMemo

前面提到的反馈规则也同样适用于严重依赖语义大脑的各种早教。从学校(或SuperMemo)可以得知,以成人为中心的监督式学习方式适用于原子陈述性的知识的稳定化,并且过程也是自主的,进度是自定的。SuperMemo 的老规则则是在没有建立一个连贯的知识结构之前,永远不要复习(不懂就不要背)。在监督学习中,最优反馈的规则与学校里那一套大相径庭。

错误的外部反馈是厌学和拒学的根源之一。